Tecnologia Científica

Pesquisadores vislumbram o funcionamento interno dos modelos de linguagem de proteínas
Uma nova abordagem pode revelar os recursos que os modelos de IA usam para prever proteínas que podem ser bons alvos para medicamentos ou vacinas.
Por Anne Trafton - 25/08/2025


Entender o que está acontecendo dentro da “caixa preta” de grandes modelos de proteínas pode ajudar os pesquisadores a escolher melhores modelos para uma tarefa específica, ajudando a agilizar o processo de identificação de novos medicamentos ou alvos de vacinas. Créditos: Imagem: MIT News; iStock


Nos últimos anos, modelos que podem prever a estrutura ou função de proteínas têm sido amplamente utilizados para uma variedade de aplicações biológicas, como identificação de alvos de medicamentos e desenvolvimento de novos anticorpos terapêuticos.

Esses modelos, baseados em modelos de grande linguagem (LLMs), podem fazer previsões muito precisas sobre a adequação de uma proteína para uma determinada aplicação. No entanto, não há como determinar como esses modelos fazem suas previsões ou quais características da proteína desempenham o papel mais importante nessas decisões.

Em um novo estudo, pesquisadores do MIT utilizaram uma técnica inovadora para abrir essa "caixa preta" e determinar quais características um modelo de linguagem proteica leva em consideração ao fazer previsões. Entender o que acontece dentro dessa caixa preta pode ajudar os pesquisadores a escolher modelos melhores para uma tarefa específica, contribuindo para agilizar o processo de identificação de novos medicamentos ou alvos para vacinas.

“Nosso trabalho tem amplas implicações para o aprimoramento da explicabilidade em tarefas posteriores que dependem dessas representações”, afirma Bonnie Berger, Professora Simons de Matemática, chefe do grupo de Computação e Biologia do Laboratório de Ciência da Computação e Inteligência Artificial do MIT e autora sênior do estudo. “Além disso, a identificação de características rastreadas por modelos de linguagem de proteínas tem o potencial de revelar novos insights biológicos a partir dessas representações.”

Onkar Gujral, aluno de pós-graduação do MIT, é o autor principal do estudo de acesso aberto , publicado esta semana na revista Proceedings of the National Academy of Sciences. Mihir Bafna, aluno de pós-graduação do MIT em engenharia elétrica e ciência da computação, e Eric Alm, professor de engenharia biológica do MIT, também são autores do artigo.

Abrindo a caixa preta

Em 2018, Berger e o ex-aluno de pós-graduação do MIT, Tristan Bepler (PhD '20), apresentaram o primeiro modelo de linguagem de proteínas. Seu modelo, assim como modelos de proteínas subsequentes que aceleraram o desenvolvimento do AlphaFold, como ESM2 e OmegaFold, baseavam-se em LLMs. Esses modelos, que incluem o ChatGPT, podem analisar grandes quantidades de texto e descobrir quais palavras têm maior probabilidade de aparecer juntas.

Modelos de linguagem proteica usam uma abordagem semelhante, mas em vez de analisar palavras, eles analisam sequências de aminoácidos. Pesquisadores têm usado esses modelos para prever a estrutura e a função de proteínas e para aplicações como a identificação de proteínas que podem se ligar a determinados medicamentos.

Em um  estudo de 2021 , Berger e colegas usaram um modelo de linguagem proteica para prever quais seções de proteínas de superfície viral têm menor probabilidade de sofrer mutação, permitindo a fuga viral. Isso permitiu que identificassem possíveis alvos para vacinas contra influenza, HIV e SARS-CoV-2.

Entretanto, em todos esses estudos, foi impossível saber como os modelos estavam fazendo suas previsões.

“Conseguiríamos fazer alguma previsão no final, mas não tínhamos a mínima ideia do que estava acontecendo nos componentes individuais dessa caixa preta”, diz Berger.


No novo estudo, os pesquisadores buscaram investigar como os modelos de linguagem proteica realizam suas previsões. Assim como os LLMs, os modelos de linguagem proteica codificam informações como representações que consistem em um padrão de ativação de diferentes "nós" dentro de uma rede neural. Esses nós são análogos às redes de neurônios que armazenam memórias e outras informações no cérebro.

O funcionamento interno dos LLMs não é fácil de interpretar, mas, nos últimos anos, pesquisadores começaram a usar um tipo de algoritmo conhecido como autocodificador esparso para ajudar a esclarecer como esses modelos fazem suas previsões. O novo estudo do laboratório de Berger é o primeiro a usar esse algoritmo em modelos de linguagem de proteínas.

Autocodificadores esparsos funcionam ajustando a forma como uma proteína é representada dentro de uma rede neural. Normalmente, uma determinada proteína será representada por um padrão de ativação de um número limitado de neurônios, por exemplo, 480. Um autocodificador esparso expandirá essa representação para um número muito maior de nós, digamos 20.000.

Quando a informação sobre uma proteína é codificada por apenas 480 neurônios, cada nó se destaca para múltiplas características, tornando muito difícil saber quais características cada nó está codificando. No entanto, quando a rede neural é expandida para 20.000 nós, esse espaço extra, juntamente com uma restrição de dispersão, dá à informação espaço para se "espalhar". Agora, uma característica da proteína que antes era codificada por múltiplos nós pode ocupar um único nó.

“Em uma representação esparsa, os neurônios que se iluminam o fazem de maneira mais significativa”, diz Gujral. ??“Antes que as representações esparsas sejam criadas, as redes compactam as informações de forma tão compacta que é difícil interpretar os neurônios.”

Modelos interpretáveis

Após obterem representações esparsas de diversas proteínas, os pesquisadores usaram um assistente de IA chamado Claude (parente do popular chatbot Anthropic de mesmo nome) para analisar as representações. Nesse caso, pediram a Claude que comparasse as representações esparsas com as características conhecidas de cada proteína, como função molecular, família proteica ou localização dentro de uma célula.

Ao analisar milhares de representações, Claude consegue determinar quais nós correspondem a características proteicas específicas e, em seguida, descrevê-los em linguagem simples. Por exemplo, o algoritmo pode dizer: "Este neurônio parece estar detectando proteínas envolvidas no transporte transmembrana de íons ou aminoácidos, particularmente aquelas localizadas na membrana plasmática".

Esse processo torna os nós muito mais "interpretáveis", o que significa que os pesquisadores conseguem identificar o que cada nó está codificando. Eles descobriram que as características com maior probabilidade de serem codificadas por esses nós eram a família de proteínas e certas funções, incluindo diversos processos metabólicos e biossintéticos.

“Quando você treina um autocodificador esparso, você não o está treinando para ser interpretável, mas acontece que, ao incentivar a representação a ser realmente esparsa, isso acaba resultando em interpretabilidade”, diz Gujral.

Entender quais características um modelo proteico específico codifica pode ajudar os pesquisadores a escolher o modelo certo para uma tarefa específica ou a ajustar o tipo de entrada fornecida ao modelo para gerar os melhores resultados. Além disso, analisar as características que um modelo codifica pode, um dia, ajudar os biólogos a aprender mais sobre as proteínas que estão estudando.

“Em algum momento, quando os modelos se tornarem muito mais poderosos, você poderá aprender mais biologia do que já sabe, abrindo os modelos”, diz Gujral.

A pesquisa foi financiada pelos Institutos Nacionais de Saúde. 

 

.
.

Leia mais a seguir